Model Selection

Region Supervision-Free

# Region Supervision-Free

Vilt B32 Finetuned Vqa

ViLT is a vision-and-language transformer model fine-tuned on the VQAv2 dataset for visual question answering tasks.

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase